### Описание проекта
В проекте вам нужно обучить модель линейной регрессии на данных о жилье в Калифорнии в 1990 году. С этим датасетом вы уже работали в четвёртой теме курса. <p>
В колонках датасета содержатся следующие данные:<p>
longitude — широта;<p>
latitude — долгота;<p>
housing_median_age — медианный возраст жителей жилого массива;<p>
total_rooms — общее количество комнат в домах жилого массива;<p>
total_bedrooms — общее количество спален в домах жилого массива;<p>
population — количество человек, которые проживают в жилом массиве;<p>
households — количество домовладений в жилом массиве;<p>
median_income — медианный доход жителей жилого массива;<p>
median_house_value — медианная стоимость дома в жилом массиве;<p>
ocean_proximity — близость к океану.<p>
На основе данных нужно предсказать медианную стоимость дома в жилом массиве — median_house_value. Обучите модель и сделайте предсказания на тестовой выборке. Для оценки качества модели используйте метрики RMSE, MAE и R2.<p>
### Инструкция по выполнению проекта
Инициализируйте локальную Spark-сессию.<p>
Прочитайте содержимое файла /datasets/housing.csv.<p>
Выведите типы данных колонок датасета. Используйте методы pySpark.<p>
Выполните предобработку данных:<p>
Исследуйте данные на наличие пропусков и заполните их, выбрав значения по своему усмотрению.<p>
Преобразуйте колонку с категориальными значениями техникой One hot encoding.<p>
Постройте две модели линейной регрессии на разных наборах данных:<p>
используя все данные из файла;<p>
используя только числовые переменные, исключив категориальные.<p>
Для построения модели используйте оценщик LinearRegression из библиотеки MLlib.<p>
Сравните результаты работы линейной регрессии на двух наборах данных по метрикам RMSE, MAE и R2. Сделайте выводы.
